多模式实体对齐旨在确定两个不同的多模式知识图之间的等效实体,这些实体由与实体相关的结构三元组和图像组成。大多数先前的作品都集中在如何利用和编码不同模式中的信息,而由于模态异质性,因此在实体对齐中利用多模式知识并不是微不足道的。在本文中,我们提出了基于多模式对比度学习的实体比对模型McLea,以获得多模式实体对准的有效联合表示。与以前的工作不同,麦克莱尔(McLea)考虑了面向任务的模式,并为每个实体表示形式建模模式间关系。特别是,麦克莱(McLea)首先从多种模式中学习多个单独的表示,然后进行对比学习以共同对模式内和模式间相互作用进行建模。广泛的实验结果表明,在受监督和无监督的设置下,MCLEA在公共数据集上优于公共数据集的最先进的基线。
translated by 谷歌翻译
我们开发一个名为EasyCV的多合一计算机视觉工具箱,以促进使用各种SOTA计算机视觉方法。最近,我们将Yolox的Yolox-Pai(Yolox的改进版本)添加到EasyCV中。我们进行消融研究以研究某些检测方法对YOLOX的影响。我们还为Pai-blade提供了一种易于使用,用于加速基于Bladedisc和Tensorrt的推理过程。最后,在单个NVIDIA V100 GPU上,我们在1.0毫秒内收到可可延迟的42.8映射,该MAP比Yolov6快一点。简单但有效的预测变量API也在EasyCV中设计,以进行END2END对象检测。现在可以在以下网址获得代码和模型,请访问:https://github.com/alibaba/easycv。
translated by 谷歌翻译
基于图像集的视觉分类方法已通过以对称正定(SPD)歧管上的非单个协方差矩阵来表征图像集来实现出色的性能。为了更好地适应复杂的视觉场景,最近研究了一些用于SPD矩阵非线性处理的Riemannian网络(Riemnets)。但是,有必要问,是否可以通过简单地增加骚扰的深度来实现更大的准确性提高。答案似乎是负面的,因为更深层次的riemnets倾向于失去概括能力。为了探索这个问题的可能解决方案,我们为SPD矩阵学习提供了新的体系结构。具体来说,为了丰富深层表示,我们采用spdnet [1]作为骨干,并用堆叠的里曼式自动编码器(SRAE)构建在尾巴上。相关的重建误差项可以使SRAE和每个RAE的嵌入功能成为近似身份映射,这有助于防止统计信息的降级。然后,我们插入具有快捷方式连接的几个残留式块,以增强SRAE的表示能力,并简化更深层的网络的训练。实验证据表明,随着网络深度的增加,我们的DreamNet可以提高准确性。
translated by 谷歌翻译
The click-through rate (CTR) prediction task is to predict whether a user will click on the recommended item. As mind-boggling amounts of data are produced online daily, accelerating CTR prediction model training is critical to ensuring an up-to-date model and reducing the training cost. One approach to increase the training speed is to apply large batch training. However, as shown in computer vision and natural language processing tasks, training with a large batch easily suffers from the loss of accuracy. Our experiments show that previous scaling rules fail in the training of CTR prediction neural networks. To tackle this problem, we first theoretically show that different frequencies of ids make it challenging to scale hyperparameters when scaling the batch size. To stabilize the training process in a large batch size setting, we develop the adaptive Column-wise Clipping (CowClip). It enables an easy and effective scaling rule for the embeddings, which keeps the learning rate unchanged and scales the L2 loss. We conduct extensive experiments with four CTR prediction networks on two real-world datasets and successfully scaled 128 times the original batch size without accuracy loss. In particular, for CTR prediction model DeepFM training on the Criteo dataset, our optimization framework enlarges the batch size from 1K to 128K with over 0.1% AUC improvement and reduces training time from 12 hours to 10 minutes on a single V100 GPU. Our code locates at https://github.com/bytedance/LargeBatchCTR.
translated by 谷歌翻译
最近的工作表明,二值化的神经网络(BNN)能够大大降低计算成本和内存占用空间,促进在资源受限设备上进行模型部署。然而,与其全精密对应物相比,BNN患有严重的精度降解。旨在降低这种精度差距的研究已经很大程度上主要集中在具有少量或没有1x1卷积层的特定网络架构上,标准二值化方法不起作用。由于1x1卷积在现代架构的设计中是常见的(例如,Googlenet,Reset,DenSenet),开发一种方法以有效地为BNN进行更广泛采用的方法是至关重要的。在这项工作中,我们提出了一个“弹性链路”(EL)模块,通过自适应地将实值的输入特征自适应地添加到后续卷积输出功能来丰富了BNN内的信息流。所提出的EL模块很容易实现,并且可以与BNN的其他方法结合使用。我们证明将EL添加到BNNS对挑战大规模想象数数据集产生显着改进。例如,我们将二值化resnet26的前1个精度从57.9%提高到64.0%。 EL也有助于培训二值化Mobilenet的趋同,为此实现了56.4%的前1个精度。最后,随着RESTNET的整合,它产生了新的最新的最新性,最新的171.9%的前1个精度。
translated by 谷歌翻译
目的:要开发CADIA,一种基于区域提案网络的监督深度学习模型,耦合具有针对计算机断层造影(CTA)颅内动脉瘤(IA)的假阳性减少模块,并评估我们的模型的性能到类似的检测网络。方法:在此回顾性研究中,我们评估了来自两种独立的疾病患者的两种单独的患者患者的囊性IA> = 2.5mm。实施了两步模型:用于初始动脉瘤检测的3D区域提案网络,以及3D DENSENETSFOR虚假阳性降低以及对可疑IA的进一步确定。还进行了自由响应接收器操作特征(FROC)曲线和患者级性能,在既定的假每体积(FPPV)时呈现出误报。 Fisher的确切测试用于与类似的可用模型进行比较。结果:0.25和1 FPPV的Cadia的敏感性分别为63.9%和77.5%。我们的模型的性能随着尺寸和位置而变化,最佳性能是在5-10毫米和前沟通动脉的含量,敏感性分别为95.8%和94%的敏感性。与0.25 FPPV的可用型号相比,我们的模型显示出统计学上更高的患者级精度,灵敏度和特异性。在1 FPPV阈值下,我们的模型显示出更好的准确性和特异性(P <= 0.001)和等效灵敏度。结论:CADIA在IA的检测任务中表现出可比网络。添加假阳性还原模块是改善IA检测模型的可行步骤。
translated by 谷歌翻译
Timely and effective feedback within surgical training plays a critical role in developing the skills required to perform safe and efficient surgery. Feedback from expert surgeons, while especially valuable in this regard, is challenging to acquire due to their typically busy schedules, and may be subject to biases. Formal assessment procedures like OSATS and GEARS attempt to provide objective measures of skill, but remain time-consuming. With advances in machine learning there is an opportunity for fast and objective automated feedback on technical skills. The SimSurgSkill 2021 challenge (hosted as a sub-challenge of EndoVis at MICCAI 2021) aimed to promote and foster work in this endeavor. Using virtual reality (VR) surgical tasks, competitors were tasked with localizing instruments and predicting surgical skill. Here we summarize the winning approaches and how they performed. Using this publicly available dataset and results as a springboard, future work may enable more efficient training of surgeons with advances in surgical data science. The dataset can be accessed from https://console.cloud.google.com/storage/browser/isi-simsurgskill-2021.
translated by 谷歌翻译
Crowd counting is usually handled in a density map regression fashion, which is supervised via a L2 loss between the predicted density map and ground truth. To effectively regulate models, various improved L2 loss functions have been proposed to find a better correspondence between predicted density and annotation positions. In this paper, we propose to predict the density map at one resolution but measure the density map at multiple resolutions. By maximizing the posterior probability in such a setting, we obtain a log-formed multi-resolution L2-difference loss, where the traditional single-resolution L2 loss is its particular case. We mathematically prove it is superior to a single-resolution L2 loss. Without bells and whistles, the proposed loss substantially improves several baselines and performs favorably compared to state-of-the-art methods on four crowd counting datasets, ShanghaiTech A & B, UCF-QNRF, and JHU-Crowd++.
translated by 谷歌翻译
事实证明,对预训练的模型进行迅速基于基于预训练的模型的微调对许多自然语言处理任务有效。但是,尚未对生物医学领域的迅速进行调整。生物医学单词在一般领域通常很少见,但在生物医学环境中无处不在,这在微观调整后即使在下游生物医学应用上都显着恶化了预训练的模型的性能,尤其是在低资源场景中。我们提出了一种简单而有效的方法,可以帮助模型在迅速调整过程中学习稀有的生物医学单词。实验结果表明,我们的方法可以使用少量的香草提示设置,无需任何额外的参数或培训步骤即可提高生物医学自然推理任务6%。
translated by 谷歌翻译
最近,图形神经网络(GNN)已被广泛用于开发成功的推荐系统。尽管功能强大,但基于GNN的建议系统很难附上明显的解释,说明为什么特定项目最终在给定用户的建议列表中。确实,解释基于GNN的建议是独特的,而现有的GNN解释方法是不合适的,原因有两个。首先,传统的GNN解释方法是为节点,边缘或图形分类任务而不是排名而设计的,如推荐系统中。其次,标准的机器学习解释通常旨在支持熟练的决策者。相反,建议是为任何最终用户设计的,因此应以用户理解的方式提供其解释。在这项工作中,我们提出了润滑脂,这是一种新的方法,用于解释任何基于黑盒GNN的建议系统提供的建议。具体而言,Grease首先在目标用户项目对及其$ L $ -HOP社区上训练替代模型。然后,它通过找到最佳的邻接矩阵扰动来捕获足够和必要的条件,分别推荐一个项目,从而生成事实和反事实解释。在现实世界数据集上进行的实验结果表明,油脂可以为流行的基于GNN的推荐模型产生简洁有效的解释。
translated by 谷歌翻译